Telegram Group Search
TimeGPT: нейросеть для анализа временных рядов
Когда речь заходит про нейросети, большинство вспоминает про ChatGPT, Midjourney, Stable Diffusion, Sora и так далее.

У них функционал все более впечатляющий с каждой новой версией и одновременно понятный: генерация текстов, изображений и видео по запросу. Их уже используют в самых разных сферах — создают рекламные креативы, «прикручивают» к чат-ботам, пишут дипломы.

Но ИИ используется и для более узких, специализированных задач. Пример: TimeGPT — модель, которая анализирует временные ряды.

🔜 Временной ряд — это последовательность значений показателей, изменения которых фиксировались в течение определенного промежутка времени. Например, биржевой курс доллара.

Анализ временных рядов используется, чтобы составить прогноз изменений, выявить тенденции и закономерности. Это непростая задача, которая решается с помощью сложных математических моделей. Неудивительно, что появилась ИИ-альтернатива, которая призвана сделать анализ временных рядов быстрым и доступным.

Ее предложила компания Nixtla
💬 TimeGPT — модель, натренированная на датасете из более чем 100 млрд показателей. Данные брали из открытых источников.

💬 Ее можно файнтюнить на своих данных, чтобы улучшить результаты, но авторы заверяют, что она и без этого справляется. То есть, TimeGPT можно дать набор данных, которые она никогда раньше не видела, и она составить по ним прогноз и выявит аномалии.

💬 Авторы сравнили TimeGPTс 10+ различных альтернатив, и почти во всех случаях ее прогнозы были точнее. Правда, они не стали сравнивать ее с самыми популярными методами для анализа временных рядов — моделью ARIMA и Prophet из-за сложности и ресурсоемкости.

Подробнее про бенчмарк, а также саму модель и ее архитектуру они рассказали в своей работе на arxiv.org.

Сейчас TimeGPT находится в бете — нужно подать заявку, чтобы принять участие в тестировании. Но уже доступны несколько open source-инструментов, которые умеют предсказывать погоду и изменения экономических показателей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Расскажите о себе!
Про себя и наши проекты мы рассказываем часто, а теперь хотим поближе познакомиться с вами. Ответьте, пожалуйста, на вопросы ниже — это поможет понять, кто нас читает и какой контент для вас будет наиболее полезным!
Сколько вам лет?
Anonymous Poll
0%
Меньше 18 лет
21%
18-24
56%
25-34
16%
35-44
6%
45 или больше
Please open Telegram to view this post
VIEW IN TELEGRAM
Row Zero: как Excel, только в 100 раз быстрее
Row Zero — новый облачный инструмент для работы с данными, который среди аналогов выделяется тем, что умеет быстро обрабатывать очень большие объемы данных.

🔵 Интерфейс, как у всем знакомого Excel. Он понимает такие же формулы, умеет делать таблицы и визуализировать данные. Не Tableau, но график нарисует.
🔵 В него можно загружать CSV и JSONL-файлы или напрямую подключать к источникам данных — базам, хранилищам, аккаунтам в соцсетях, рекламным кабинетам и так далее.
🔵Не боится ни файлов весом в несколько ГБ, ни миллионов строк и столбцов. На официальном сайте уверяют, что он в 1000 раз шустрее Google Sheets.
🔵 И все это в облаке — то есть легко расшарить для совместного просмотра или редактирования.

Убедиться, насколько правдивы обещания разработчиков, можно прямо сейчас, бесплатно и без регистрации и без смс. У бесплатной версии есть свои ограничения, но оценить полезность инструмента она позволит.
Please open Telegram to view this post
VIEW IN TELEGRAM
Работа с данными в очень больших командах
Большая компания — это не только хорошая зарплата и узнаваемое название, которое не стыдно назвать, когда вы рассказываете, где работаете. Это еще и любопытная корпоративная культура и организация внутренних процессов. Нельзя вырасти от стартапа до энтерпрайза, сохранив задор и открытость, что были в начале. Особенно интересно, как рост компании влияет на дата-команды.

Нашли две любопытных статьи на эту тему. Первая — про проблемы.

🔵 На ранних этапах пайплайны по работе с данными выстраивает небольшая команда, а то и один инженер.
🔵 Со временем объемы растут, данных становятся больше, а запросы заказчиков вроде маркетинга — сложнее. ИТ-инфрастуктура расширяется и меняется, и это приводит к непредсказуемым последствиям: например, дашборды ломаются и начинают показывать неактуальные данные. Падает скорость работы и качество взаимодействия между командами.
🔵 Пока дата-инженеры пытаются разобраться в проблемах (которые создали не они!), копятся ошибки, а доверие пользователей к данным падает.
🔵 Начинается поиск решения — например, перебор новых инструментов и платформ для работы с данными или попытки реорганизации. Это может принести результат, но не устранит причину проблемы.

И что делать?
На этот счет высказался CEO dbt — фреймворка для трансформации данных. Его пост в основном опять про проблемы дата-команд, а еще возможности dbt. Это тоже интересно, но нам нужен последний абзац про то, что ждет нас в будущем.

🔜 А будущее за командами, которые становятся владельцами своих данных и полностью отвечают за все, что связано с их хранением, трансформацией и т. д. Для коллег из других команд они создают витрины данных: так те смогут получить нужную информацию о показателях и метриках, не погружаясь «вовнутрь».

Так огромный и все увеличивающийся массив информации разбивается на несколько отдельных проектов, у каждого из которых есть владельцы — конкретные люди, отвечающие за то, чтобы все работало как надо. А не бедные инженеры, которые бегают и тушат чужие пожары. 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft BI уходит из России
И не только он.

🔜 Клиенты Microsoft получили письма счастья, где компания предупредила их, что с 20 марта прекращает поставки ПО для российских клиентов, включая облачные решения. Какое именно ПО затронут эти изменения, не уточняется, но, согласно самой популярной версии, мы останемся без Power BI, Dynamics CRM, Microsoft 365 и Outlook.

Что ж, сегодня узнаем точно.

За последние два года многие компании уже перешли с Microsoft на российские и open source-аналоги. Но все же кто-то продолжал пользоваться ее сервисами — например, те, у кого подписки были оплачены на несколько лет вперед. С сегодняшнего дня они потеряют доступ к сервисам Microsoft и всем данным, которые там хранились.

А как у вас? Вас затронуло это решение Microsoft или вы отказались от их услуг? А может, и не пользовались никогда? Делитесь в комментах, как вы теперь будете жить без Power BI и Outlook! 👀

UPD:
А вот и список продуктов, к которым Microsoft ограничивает доступ — всего 50 штук, включая Power BI, OneDrive, Microsoft 365 и Azure.
Please open Telegram to view this post
VIEW IN TELEGRAM
pql: язык запросов с открытым исходным кодом
Сложно это признавать, но SQL неидеален. Он может быть очень сложным, а запросы, как ни оптимизируй, иногда получаются ужасно громоздкими.

Некоторых это подталкивает к созданию альтернатив — более гибких и удобных языков запросов.

🔜 Например, Microsoft разработала Kusto Query Language (KQL) — он простой и интуитивно понятный, но использовать его можно только с продуктами, входящими в Microsoft Azure. Похожие разработки есть и у других компаний, например, Splunk или Sumologic. У них те же плюсы и то же главное ограничение — это проприетарные языки, которые неприменимы вне их «родной» экосистемы.

🔜 pql — это open source язык запросов, который можно и нужно использовать с open source базами данных. Создатели вдохновлялись KQL и постарались свой продукт наделить теми же плюсами и сделать его таким же простым и логичным.

На сайте проекта можно потестить, как это работает, и найти ссылки на GitHub и блог разработчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как ChatGPT упростил мне жизнь
ChatGPT — один из таких инструментов, про который все говорят: «Какой у него большой потенциал!», но пользоваться им многие толком не умеют. Пора исправляться!

Моя личная история о том, как он может упростить жизнь — в новом видео на канале «Дата Коля»!

🔵 Как написать письмо в консульство, после которого не откажут в визе?
🔵 Как заставить ChatGPT делать за себя скучную работу вроде заполнения табличек?
🔵 Как писать крутые промпты?

Никакой инфоцыганщины и обещаний научить зарабатывать на ChatGPT миллионы. Только честный личный опыт.

🔜 Очень жду ваших лайков и честных коментов!
Please open Telegram to view this post
VIEW IN TELEGRAM
Что показали на UNION ALL?
20 марта команда Yandex Cloud провела UNION ALL — конференцию для всех, кто работает с данными. На ней рассказали про сервис Yandex MetaData Hub, новые тарифы Yandex DataLens и некоторые другие улучшения.

🔵 Yandex MetaData — сервис для управления метаданными, информацией для интеграции баз данных и подключения к ним. Он поможет настроить доступы к базам, связать друг с другом облачные сервисы, отслеживать действия с метаданными.

🔵 Представили два тарифа для BI-инструмента Yandex DataLens: Community и Business. Первый бесплатный, с полным доступом ко всем функциям. Второй обойдется в 990 рублей и обеспечит пользователям приоритетную поддержку, возможность встраивать свои дашборды во внешние системы вроде CRM и некоторые другие преимущества. Оба тарифа станут доступны с 24 апреля.

🔵 Также поработали над безопасностью и добавили новые инструменты.

👀 Рассказывайте — следите за профессиональными мероприятиями? Может быть, даже были на UNION ALL?
Please open Telegram to view this post
VIEW IN TELEGRAM
Modern Data Stack — всё?
Каждый раз, когда что-то — например, новая технология — становится популярным, оно проходит несколько стадий. На старте у нового явления есть четкое определение. Потом о нем узнает широкая общественность, а маркетологи понимают, что это название отлично привлекает внимание. Его начинают использовать все подряд, значение термина размывается, и в итоге он превращается в баззворд.

🔜 Именно такой путь прошел Modern Data Stack. Его историю вспомнил СЕО dbt Тристан Хэнди и задался вопросом: актуален ли он все еще?
🔵 Термин Modern Data Stack появился в середине десятых. Так начали называть облачные инструменты для аналитик: Looker, Fivetran, тот самый dbt и так далее.
🔵 В 2020 MDS завоевал большую популярность, и наступила эпоха коллаборации между вендорами. Разработчики ПО объединяли свои продукты в целые экосистемы. Позиционирование инструмента как MDS помогало выйти на рынок и заинтересовать инвесторов, партнеров и пользователей.
🔵 И вот оно случилось: термин стал так популярен, что начал терять смысл. Хэнди вспоминает, как на конференции его собеседник назвал MDS-компаниями Mongo, Datadog и Confluent. Все три хороши, но ни одна не выпускала продукты, которые можно было бы отнести к MDS.

🔜 Но не это заставило его задуматься о том, что этот термин устарел.

🔵 Дело в самом определении. Почти 10 лет назад, использование облачных технологий четко отделяли MDS от не-MDS — например, Looker от Tableau. Но сейчас это не так, и Tableau теперь тоже в облаке.
🔵 Изменился рынок. Инвесторы стали менее охотно вкладываться в ИТ-стартапы, а покупатели начали выбирать готовые решения, а не стеки из нескольких продуктов заколлабившихся вендоров.
🔵 Появился новый тренд, к которому все хотят присоединиться: искусственный интеллект.

Все это привело к тому, что термин Modern Data Stack потерял не только изначальный смысл, но и ценность, так что пора от него отказаться. Более подробно все эти мысли он раскрывает на подкасте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гонка за чужим одобрением
Помните, как на экзаменах все делились на тех, кто был уверен, что «сдаваться» надо обязательно в числе первых, и их противников, которые предпочитали идти последними? Еще были промежуточные варианты и равнодушные фаталисты, согласные на любой расклад, лишь бы это все побыстрее закончилось, но они нам сейчас неинтересны.

Наконец-то наука выяснила, кто был прав — как оказалось, те, кто выбирал идти первым. Исследователи провели два эксперимента.

🔜 В первом участвовало 992 добровольца, которых попросили описать 20 человек на основе их фотографий в соцсетях. В начале они давали положительные характеристики, содержавшие в среднем 6,2 добрых слова. К концу списка этот показатель снизился до 4,7.
🔜 Во втором 987 человек по-настоящему пострадали за науку и смотрели шоу «Холостяк». А точнее — то, как представляются участницы. Их просили оценить девушек, и, как и предыдущем эксперименте, каждая следующая получала все менее лестную характеристику. Видео показывали в рандомом порядке.

Почему это происходит?
Исследователи предположили, что, когда мы оцениваем друг за другом несколько человек, мы ищем у них какие-то отличительные особенности. Негативные черты сильнее всего обращают на себя внимание, и люди начинают концентрироваться именно на них.

Этот эффект может влиять на то, как оценивают соискателей, студентов на экзамене, участников в реалити-шоу или конкурса, профили в «Тиндере» и просто новых знакомых. Так что, если вам важно произвести хорошее впечатление на человека, надо постараться познакомиться с ним как можно быстрее и всех опередить.

🔜 Кстати, а как вы экзамены сдавали? Шли среди первых, сидели до конца или как получится?
Please open Telegram to view this post
VIEW IN TELEGRAM
Все, что вы хотели узнать про рекламу в LEFT JOIN
Весна — это время пробуждения, вдохновения и обновления, поэтому подумали и решили обновить медиакит. 😁 А заодно написали небольшую справку для рекламодателей.

🔜 В медиаките вы найдете расценки, форматы рекламных интеграций и данные о канале — аудитория и метрики.

🔜 Во втором документе мы рассказали об условиях сотрудничества: как проходит подготовка рекламных материалов, согласование, оплата, выбор даты публикации. В общем, ответы на часто задаваемые вопросы.

Мы рассматриваем заявки на разные темы: курсы, мероприятия, вакансии, инструменты для IT-специалистов и аналитиков, тематические каналы и просто всякое интересное про диджитал и технологии. Главное, чтобы продукт был действительно качественный и достойный! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Анализ самых популярных AI-инструментов на GitHub
Кажется, сейчас все только и делают, что обучают модели и разрабатывают все новые приложения на основе AI, которые за вас пишут тексты, рисуют картинки и кодят.

Выяснили, так или это и как на самом деле выглядит мир AI open source-приложений на GitHub — кто их разрабатывает, что разрабатывают и собираются ли останавливаться. То есть выяснил кое-кто другой, а мы вам расскажем самое главное из этого исследования.

В выборку попали 845 репозиториев с GitHub, у которых было 500 звездочек или больше и слова gpt, llm, generative AI в описании. Они делятся на 4 группы.
1️⃣ Приложения на основе ИИ — самая популярная категория.
2️⃣ Инструменты для разработки, которые помогают с промпт-инжирингом или предоставляют интерфейс для взаимодействия с ИИ.
3️⃣ Инструменты для работы моделями — обучения, создания датасетов.
4️⃣ Инструменты для создания инфраструктуры для разработки — все, что связано с управлением данными, мониторингом и вычислениями.

В первой половине 2023 виден взрывной рост числа новых проектов во всех 4 категориях, который вышел на плато в сентябре. Рост, вероятно, связан с релизом ChatGPT и Stable Diffusion в 2022, а замедление — с перенасыщением рынка.

🔜 845 репозиториев выложены 594 аккаунтами. 20 из них разместили 4 или более приложения или инструмента — на них приходится 23% всех репозиториев, попавших в выборку.

🔜 19 аккаунтов из топ-20 принадлежат организациям (3 из них — Google) и только один личный.

🔜 Вклад в развитие проектов в выборке сделали 20 000 разработчиков.

🔥 AI все еще на хайпе, но хайп недолговечен. Большинство проектов быстро набирают популярность после выкладки, но потом прирост звездочек снижается.

В оригинале статьи — больше цифр, графики и ссылки на самые интересные проекты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Иногда они возвращаются
В прошлую субботу мы вам немного спойлернули новый проект — точнее, возвращение старого.

Data Heroes — подкаст о супергероях, чья сила в данных. Уже вышло три сезона, и у каждого была своя тема.

1️⃣ Первый — про то, как прокачаться как аналитик и начать карьеру в этой сфере. Разбирались, как выбрать школу, найти мотивацию, научиться тайм-менеджменту и стать идеальным кандидатом в глазах эйчара.
❤️ Наш любимый выпуск: как победить синдром самозванца.

2️⃣ Второй — про разные направления. Поговорили про датавиз, Data Science и мировой рынок аналитики. В специальных выпусках рассказали, как составить крутое резюме.
❤️ Наш любимый выпуск: как убеждать с помощью визуализации.

3️⃣ Третий — про то, как строить бизнес и личный бренд в аналитике. Поделились секретами мастерства, как вести канал и подкаст про данные.
❤️ Наш любимый выпуск: как будет меняться работа аналитика с развитием искусственного интеллекта.

Сейчас вовсю идет работа над 4 сезоном, и у него тоже будет своя тема. Мы пока не расскажем, какая она, но вы можете попробовать угадать в комментариях!

Первый эпизод выйдет уже совсем скоро!
Please open Telegram to view this post
VIEW IN TELEGRAM
Как связаны сакура и изменение климата?
Наверное, никто не удивится, что в Японии к сакуре относятся очень серьезно и с 9 века ведут хроники, отмечая, в какой день ее цветение достигло пика.

На основе этих данных построили график с 812 года по 2023. На нем отмечены дни, когда сакура цвела особенно пышно, и среднее значение за 20 лет. Он интерактивный, можно приближать, удалять, рассмотреть каждый год в отдельности. 👀

Данные для графика предоставил исследователь из Osaka Metropolitan University Ясуюки Аоно. Он их собирал не просто из любви к искусству, а для изучения того, как менялся климат и температура воздуха весной. Из-за того, что погода становилась теплее пик цветения сакуры наступает раньше, а кривая среднего за 20 лет опускается все ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Карта вашей базы данных
Базы данных нередко состоят из множества разных таблиц. Разобраться в структуре может быть непросто, но тут на помощь приходят схемы. Они показывают перечень таблиц, их содержимое и взаимосвязи — то есть содержатся ли в одной таблице ключи к какой-то другой.

Инструментов, которые помогают составлять схемы, довольно много. Преимущество сегодняшнего с говорящим названием SQLite Schema Diagram Generator в том, что он бесплатный, маленький и простой.

🔜 Понадобится скачать файлик с гитхаба и отдельный тул GraphViz. Файлик генерирует схему в формате GraphViz, а последний ее визуализирует. Вот и все — куда уж проще.
Please open Telegram to view this post
VIEW IN TELEGRAM
2024/05/14 21:48:33
Back to Top
HTML Embed Code: